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La presente invention conceme un procede d'analyse d'informations 
de frequence fondamentale contenues dans des echantillons vocaux, et un pro- 
cede et un systeme de conversion de voix mettant en oeuvre ce procede d'ana- 
lyse. 

5 Suivant la nature des sons a emettre, la production de la parole et no- 

tamment des sons voises, peut faire intervenir la vibration des cordes vocales, ce 
qui se manifeste par la presence dans le signal de parole, d'une structure perio- 
dlque de peripde fondamentale dont Tinverse est appele frequence fondamentale 
ou "pitch". 

10 Dans certaines applications, tels que la conversion de voix, le rendu 

auditif est primordial et pour obtenir une qualite acceptable, il convient de bien 
maTtriser les parametres lies a la prosodie et parmi ces derniers, la frequence 
fondamentale. 

Ainsi, 11 existe aujourd'hui de nombreux precedes d'analyse des infor- 
1 5 mations de frequence fondamentale contenues dans des echantillons vocaux. 

Ces analyses permettent de determiner et de modeliser des caracte- 
ristiques de la frequence fondamentale. Par exertiple, il existe des precedes p[er- 
mettant de determiner la pente, ou encore une echelle d'amplitude de la fre^ 
quence fondamentale sur Tensemble d'une base de donnees d'echantHlons,^vo- 
20 caux. 

La connaissance de ces parametres permet d'effectuer des modifica- 
tions de signaux de parole, par exemple par des mises a I'echelle de frequence 
fondamentale entre des iocuteurs source et cible, de maniere a respecter globa- 
lement la moyenne et la variation de la frequence fondamentale du locuteur cible. 
25 Cependant, ces analyses ne permettent d'obtenir que des representa- 

tions globales et pas de representations parametrables de la frequence fonda-' 
mentale et ne sent done pas pertinentes notamment pour des Iocuteurs dont les 
styles d'elocution sent differents. 

Le but de la presente invention est de remedier a ce probleme, en de- 
30 finissant un procede d'analyse d'informations de frequence fondamentale 
d'echantillons vocaux, permettant la definition d"une representation parametrable 
de la frequence fondamentale. 
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A cet effet, la presente invention a pour objet un proc^de d'anaiyse 
d'informations de frequence fondamentale contenues dans des §chantlllons vo- 
caux, caracteris§ en ce qu'il comporte au nnoins : 

- une etape d'anaiyse des 6chantlllons vocaux regroupes en frames 
5 pour obtenir, pour chaque frame d'echantillons, des Informations relatives au 

spectre et des Informations relatives § la frequence fondamentale; 

- une etape de determination d'un modele repr^sentant les caracteris- 
tiques communes de spectre et de frequence fondamentale de tous les echantil- 
lons; et 

° - ®tape cie determination, a partir de ce module et des echantillons 

vocaux, d'une fonction de prediction de la frequence fondamentale en fonction 
unlquement d'informations relatives au spectre. 

Sulvant d'aufres caract^ristiques de ce precede d'anaiyse : 

- ladlte etape d'anaiyse est adapt6e pour delivrer lesdites informations 
1 5 relatives au spectre sous la forme de coefficients cepstraux ; 

- ladlte etape d'anaiyse comporte : 

- une sous-6tape de modellsatlon des Echantillons vocaux selon 
une somme d'un signal harmonique et d'un signal de brurt ; 

- une sous-etape d'estimation de param^tres de frequence et au 
20 moins de la frequence fondamentale des echantillons vocaux ; 

- une sous-etape d'anaiyse synchronisee de chaque frame 
d'echantillons sur sa frequence fondamentale ; et 

- une sous-6tape d'estimation des parametres de specfre de 
chaque trame d'echantillons ; 

- II comporte en oufre une etape de normalisation de la frequence fon- 
damentale de chaque frame d'echantillons par rapport a la moyenne des fre- 
quences fondamentales des Echantillons analyses ; 

- ladlte Etape de determination d'un module correspond a la determi- 
nation d'un modele par melange de densltes gausslennes ; 

- 'aclite etape de determination d'un modEle comprend : 

- une sous-etape de determination d'un modEle correspondant a 
un melange de densltes gausslennes; et 

- une sous-etape d'estimation des parametres du melange de 
densltes gausslennes a partir de I'estimation du maximum de vralsemblance en- 
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tre les informations de spectre et de frequence fondamentale des echantilions et 
du modele ; 

- ladite etape de determination d'une fonction de prediction est realisee 
a partir d'un estimateur de la realisation de la frequence fondamentale sachant 

5 les informations de spectre des echantilions ; 

- ladite 6tape de determination de la fonction de prediction de la fre- 
quence fondamentale comprend une sous-6tape de determination de I'esperance 
conditionnelle de la realisation de la frequence fondamentale sachant les infor- 
mations de spectre a partir de la probabilite a posteriori que les informations de 

10 spectre soient obtenues ^ partir du modele, Tesp^rance conditionnelle formant 
ledit estimateur. 

L'Invention a 6galement pour objet un precede de conversion d'un si- 
gnal vocal prononc§ par un locuteur source en un signal vocal convert! dont les 
caracteristiques ressemblent ^ celles d'un locuteur cible, comportant au moins : 
15 - une etape de determination d'une fonction de transformation de .ca- 

racteristiques spectrales du locuteur source en caracteristiques spectrales .du 
locuteur cible, realisee a partir d'echantillons vocaux du locuteur source et.^du 
locuteur cible; et , 

- une etape de transformation des Informations de spectre du signal de 
20 voix du locuteur source a convertir a Taide de ladite fonction de transformation, 

caracterise en ce qu'il comporte en outre : 

- une etape de determination d'une fonction de prediction de la fre- 
quence fondamentale en fonction uniquement d'informations relatives au spectre 
pour le locuteur cible, ladite fonction de prediction etant obtenue a Taide d'un 

25 precede d'analyse tel que defini precedemment ; et 

- une etape de prediction de la frequence fondamentale du signal de 
voix a convertir par Tapplication de ladite fonction de prediction de la frequence 
fondamentale auxdites informations de spectres transformes du signal de voix du 
locuteur source. 

30 Suivant d'autres caracteristiques de ce precede de conversion : 

- ladite etape de determination d'une fonction de transformation est re- 
alisee a partir d'un estimateur de la realisation des caracteristiques spectrales 
cibles sachant les caracteristiques spectrales source ; 
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- ladite etape de determination d'une fonction de transformation com- 

porte : 

- une sous-etape de mod§lisation des ecliantillons vocaux source 
et cible selon un module de somme d'un signal harmonique et d'un signal de 

5 bruit ; 

- une sous-§tape d'allgnement entre les ^chantlllons source et ci- 
ble; et 

- une sous-etape de determination de ladite fonction de transfor- 
mation a partir du calcul de I'esperance conditionnelle de la r6alisation des 
caracteristiques spectrales cibles sachant la realisation des caract^risations 
spectrales sources, I'esperance conditionnelle formant ledit estimateur. 

- ladite fonction de transformation est une fonction de transformation 
de I'enveloppe spectrale ; 

- il comporte en outre une etape d'analyse du signal de voix ^ convertir 
adaptee pour d§llvrer lesdites informations relatives au spectre et a la frequence 
fondamentale ; 

- il comporte en outre une etape de synthese permettant de former un 
signal de voix convert! 6 partir au moins des Informations de spectre transfor- 
mees et des informations de frequence fondamentale pr6dites. 

L'invention a encore pour objet un syst^me de conversion d'un signal 
vocal prononce par un locuteur source en un signal vocal converti dont les carac- 
teristiques ressemblent a celles d'un locuteur cible. syst6me comportant au 
moins : 

- des moyens de determination d'une fonction de transformation de ca- 
racteristiques spectrales du locuteur source en caracteristiques spectrales du 
locuteur cible. recevant en entree des echantillons vocaux du locuteur source et 
du locuteur cible ; et 

- des moyens de transfomnatlon des informations de spectre du signal 
de voix du locuteur source e convertir par I'application de ladite fonction de trans- 

30 formation deiivree par les moyens, 

caracterise en ce qu'il comporte en outre : 

- des moyens de determination d'une fonction de prediction de la fre- 
quence fondamentale en fonction uniquement d'informations relatives au spectre 
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pour le locuteur cible, adaptes pour la mise en cBUvre d'un precede d'analyse, a 
partir d'echantillons vocaux du locuteur cible ; et 

- des moyens de prediction de la frequence fondamentale dudit signal 
de voix a convertir, par I'application de ladite fonction de prediction determinee 

5 par iesdits moyens de determination d'une fonction de prediction auxdites infor- 
mations de spectre transforme delivrees par Iesdits moyens de transformation. 
Suivant d'autres caracteristiques de ce systeme : 

- II comporte en outre : 

- des moyens d'analyse du signal de voix ^ convertir, adaptes 
10 pour delivrer en sortie des informations relatives au spectre et a la frequence 

fondamentale du signal de voix a convertir ; et 

- des moyens de synthese permettant de former un signal de voix 
convert! a partir au moins des informations de spectre transforme delivrees par 
les moyens et des informations de frequence fondamentale predites delivrees par 

1 5 les moyens; 

* « 

- Iesdits moyens de determination d'une fonction de transformation 
sont adaptes pour delivrer une fonction de transformation de I'enveloppe spec- 
trale ; 

- il est adapte pour la mise en oeuvre d'un procede de conversion de 
20 voix tei que defini precedemment 

L'invention sera mieux comprise a la lecture de la description qui va 
suivre, donn§e unlquement a.trtre d'exemple et faite en se referant aux dessins 
annexes, sur lesqueis : 

- la Fig.1 est un organigramme d'un precede d'analyse selon I'inven- 

25 tion ; 

- la Fig.2 est un organigramme d'un procede de conversion de voix 
mettant en oeuvre le procede d'analyse de Tinvention ; et 

- la Fig. 3 est un schema bloc fonctionnel d'un systeme de conversion 
de voix, permettant la mise en oeuvre du procede de invention decrit a la figure 

30 2. 

Le procede de l'invention represents sur la figure 1 , est mis en oeuvre 
§ partir d'une base de donnees d'echantillons vocaux contenant des sequences 
de parole naturelle. 
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Le proc6d6 d6bute par une etape 2 d'analyse des echantillons en les 
regroupant par trame, afin d'obtenir pour chaque trame d'6chantiIlons. des infor- 
mations relatives au spectre et notamment a I'enveloppe spectrale et des infor- 
mations relatives ^ la frequence fondamentale. 

Dans le mode de realisation d6crit, cette etape 2 d'analyse est bas6e 
sur I'utillsation d'un modele d'un signal sonore sous la forme d'une somme d'un 
signal harmonique avec un signal de bruit selon un modele commun§ment appe- 
le "HNM" (en anglais : Harmonic plus Noise Model). 

En outre, le mode de realisation d^crit est fonde sur une representa- 
tion de I'enveloppe spectrale par le cepstre discret. 

En effet, une representation cepstrale permet de separer, dans le si- 
gnal de parole, la composante relative au conduit vocal de la composante resul- 
tant de la source, correspondant aux vibrations des cordes vocales et caracteri- 
s6e par la frequence fondamentale. 

AinsI, retape 2 d'analyse comporte une sous-etape 4 de modelisation 
de chaque trame de signal vocal en une partie harmonique repr^sentant la com- 
posante perlodlque du signal, constitute d'une somme de L sinusoTdes harmoni- 
ques d'amplltude A| et de phase (}>,, et d'une partie bmitee representant le bruit de 
friction et la variation de ['excitation glottale. 

On peut ainsi tcrire : 

s{n)=h(n)+b(n) 

avec h(n)= 2lA.(n)cos(<i).(n)) 

1-1 

Le terme h(n) represente done I'approximation harmonique du signal 

s(n). 

L'etape 2 comporte ensuite une sous-etape 5 d'estimation pour cha- 
que trame, de paramdtres de frequence et notamment de la frequence fonda- 
mentale, par exemple au moyen d'une methode d'autocorrelation. 

De maniere classique, cette analyse HNM d6iivre la frequence maxi- 
male de voisement. En variante. cette frequence peut §tre fix§e arbitrairement ou 
etre estlmee par d'autres moyens connus. 

Cette sous-etape 5 est suivie d'une sous-etape 6 d'analyse synchroni- 
see de chaque trame sur sa frequence fondamentale, qui permet d'estimer les 
parametres de la partie harmonique aInsi que les parametres du bruit du signal. 



Dans le mode de realisation d6crit, cette analyse synchronis6e corres- 
pond a la determination des parametres des harmoniques par minimisation d'un 
crit^re de moindres carres ponderes entre le signal complet at sa decomposition 
harmonique correspondant dans le mode de realisation decrit, au signal de bruit 
estime. Le critere note E est egal a : 

Ti 

E = 2w^(n)(s(n)-h(n))^ 
n=>-Ti 

r 

Dans cette Equation, w (n) est la fenetre d'analyse et Ti est la periode 
fondamentale de ia trame courante. 

Ainsi, la fenetre d'analyse est centr^e autour de la marque de la pe- 
riode fondamentale et a pour duree deux fois cette periode. 

L'etape 2 d'analyse comporte enfin une sous-§tape 7 d'estimation des 
parametres des composantes de I'enveloppe spectrale du signal en utilisant par 
exemple une methode de cepstre discret regularise et une transformation en 
6chelle de Bark pour reproduire le plus fid§lement possible les propriet6s de 
I'preille hu mains. ^ 

Ainsi, retape 2 d'analyse d6livre, pour chaque trame de rangXn 
d'echantillons de signal de parole, un scalaire note Xn comprenant des inforriia- 
tions de frequence fondamentale et un vecteur note yn comprenant des informa- 
tions de spectre sous la forme d'une sequence de coefficients cepstraux. 

Avantageusement, l'etape 2 d'analyse est suivie par une etape 10 de 
normalisation de la valeur de ia frequence fondamentale de chaque trame par 
rapport a la frequence fondamentale moyenne afin de remplacer pour chaque 
trame d'echantillons vocaux, la valeur de la frequence fondamentale par une va- 
leur de frequence fondamentale normalisee selon la fomiule suivante : 



Flog = log 



Fo 



pmoy 



Dans cette formule, F^^y correspond a ia moyenne des valeurs des 

frequences fondamentales sur toute la base de donnees analysee. 

Cette normalisation pennet de modifier rechelle des variations des 
scalaires de frequence fondamentale afin de la rendre coherente avec rechelle 
des variations des coefficients cepstraux. 
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L'etape 10 de normalisation est suivie d'une etape 20 de determination 
d'un modele representant las caracteristiques communes de cepstre et de fre- 
quence fondamentale de tous les echantillons analyses. 

Dans te mode de realisation decrit, il s'agit d'un modele probabiliste de 
5 la frequence fondamentale et du cepstre discret, selon un modele de melange de 
densites gaussiennes couramment note "GMM", dont les parametres sont esti- 
mes a partir de la densite jointe de la frequence fondamentale normalisee et du 
cepstre discret. 

De maniere classique, la densite de probabilite d'une variable aleatoire 
10 notee de maniere generate p(z), suivant un modele de melange de densites 
gaussiennes GMM s'ecrit mathematiquement de la maniere suivante : 

Q 

p(z)= y)ai=N(z,|Lii,Si) 

Q 

avec X)^''" ^ » o<ai<1 

Dans cette formule, N{z ; pi ; 20 est la densite de probabilite de la loi 
1 5 normale de moyenne Pi et de matrice de covarlance Sj et les coefficients a\ sont 
les coefficients du melange. 

Ainsi, le coefficient af correspond a la probabilite a priori que la varia- 
ble aleatoire z soit generee par la i^"^® gaussienne du melange. 

De maniere plus particuliere, Tetape 20 de determination du modele 
20 comporte une sous-etape 22 de modelisation de la densite jointe entre le cepstre 
note y et la frequence fondamentale normalisee notee x, de sorte que : 



p(z) = p(y.x). oO z = 



Dans ces Equations, x = [xi, Xa, ... Xn] correspond a la sequence des 
25 scalaires contenant les informations de frequence fondamentale normalisee pour 
N trames d'echantillons vocaux et y = [yi, y2,... yN], correspond a la sequence 
des vecteurs de coefficients cepstraux correspondants. 

L'etape 20 comporte ensuite une sous-etape 24 d'estimation de para- 
metres GMM (a, p, 2) de la densite p(z). Cette estimation peut etre realises, par 
30 exemple. a Taide d'un algorithme classique de type dit "EM" (Expectation - 
Maximisation), correspondant a une m6thode iterative conduisant a Tobtention 



d'un estimateur de maximum de vraisemblance entre les donnees des 6chantfl- 
ions de parole et le module de melange de gaussienne. 

La determination des parametres initlaux du module GMM est obtenue 
a I'aide d'une technique classlque de quantification vectorlelle. 
5 L'etape 20 de determination de modele dellvre ainsi les parametres 

d'un melange de densites gaussiennes repr§sentatifs des caracteristiques com- 
munes des spectres, representees par les coefficients cepstraux, et des frequen- 
ces fondamentales des §chantillons vocaux analyses. 

Le proc6d§ comporte ensulte une etape 30 de determination, ^ partir 
10 du modele et des echantillons vocaux, d'une fonction de prediction de la fre- 
quence fondamentale en fonction unlquement d'informations de spectre fournies 
par le cepstre du signal. 

Cette fonction de prediction est determln^e a partir d'un estimateur de 
la realisation de la frequence fondamentale 6tant donne le cepstre des 6chantil- 
15 Ions vocaux, forme dans ie mode de realisation decrit, par I'esperance condltion- 
nelle. 

Pour cela, l'etape 30 comporte une sous-etape 32 de detenninatlon.iple 
I'esperance conditionnelle de la frequence fondamentale sachant les informations 
relatives au spectre fournies par le cepstre. L'esperance conditionnelle est notee 
20 F(y) et est determinee a partir des formules suivantes : 



F(y)=E[x I y]=i;R(y)[^if +S7(Z^ -^{y-p 7)] 
avec Pi(y)=-g — - — 



j=l J J 



avec 2i= 



et //|= 



Dans ces equations, P|(y) correspond S la probabillte a posteriori que 
25 le vecteur y de cepstre soit genere par la t^^ composante du melange de gaus- 
siennes du modele, defini lors de l'etape 20 par la matrice de covariance Si et la 
loi normale pi. 



10 

La determination de I'esperance conditionnelle permet ainsi d'obtenir 
la fonction de prediction de la frequence fondamentale a partir des informations 
de cepstre. 

En variante, I'estimateur mis en ceuvre lors de I'etape 30 peut §tre un 
5 crit^re de maximum a posteriori, dit "MAP" et correspondent a la realisation du 
calcul de I'esperance unlquement pour le modele repr^sentant le mleux le vec- 
teur source, 

II apparait done que le proced6 d'analyse de I'inventlon permet, a partir 
du modele et des 6chantillons vocaux, d'obtenir une fonction de prediction de la 
1 0 frequence fondamentale en fonction uniquement d'informatlons de spectre four- 
nies, dans le mode de realisation decrit, par le cepstre. 

Une telle fonction de prediction permet ensuite de determiner la valeur 
de la frequence fondamentale pour un signal de parole, uniquement a partir d'in- 
formations de spectre de ce signal, permettant ainsi une prediction pertinente de 
1 5 la frequence fondamentale notamment pour des sons qui ne sont pas dans les 
echantillons vocaux analyses. 

En reference a ia figure 2, on va maintenant decrire I'utilisation d'un 
precede d'analyse selon I'invention dans le cadre de la conversion de voix. 

La conversion de voix consiste a modifier le signal vocal d'un locuteur 
20 de reference appeie " locuteur source " de fagon que le signal produit semble 
avoir et6 prononce par un autre locuteur nomm6 " locuteur cible". 

Ce procede est mis en ceuvre a partir d'une base de donnees 
d'echantlllons vocaux prononces par le locuteur source et le locuteur cible. 

De maniere classlque, un tel precede comporte une etape 50 de d6- 
25 termination d'une fonction de transformation des caracteristiques spectrales des 
echantillons vocaux du locuteur source pour les faire ressembler aux caracteristi- 
ques spectrales des echantillons vocaux du locuteur cible. 

Dans le mode de realisation decrit, cette etape 50 est basee sur une 
analyse de type HNM permettant de determiner les relations existantes entre les 
30 caracteristiques de I'enveloppe spectrale des signaux de parole des locuteurs 
source et cible. 

Pour cela, il est necessaire de disposer d'enregistrements vocaux 
source et clble correspondant a la realisation acoustique de ia meme sequence 
phonetique. 
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L'etape 50 comporte une sous-etape 52 de modelisation des 6chantil- 
lons vocaux selon un modele HNM, de somme de signaux harmonlques et de 
bruit. 

La sous-6tape 52 est suivie d'une sous-etape 54 d'alignement entre 
les signaux source et cibie ^ I'alde par exemple d'un aigorithme classique d'ali- 
gnement dit "DTW" (en anglais " Dynamic Time Warping"). 

L'6tape 50 comporte ensuite une sous-etape 56 de determination d'un 
modele tel qu'un modele de type GMM representant les caracteristiques commu- 
nes des spectres des echantillons vocaux des locuteurs source et cibie. 

Dans le mode de realisation d6crit, on utilise un module GMM a 64 
composantes et un unique vecteur contenant les parametres cepstraux de ia 
source et de ia cible, de sorte que Ton peut definir une fonction de transformation 
spectrale correspondant a un estimateur de ia realisation des paramdtres spec- 
traux de cible notes t, sachant les parametres spectraux de source notes s, 

Dans ie mode de realisation decrit, cette fonction de transformation no- 
tee F{s) se note sous la forme d'une esperance conditionnelle obtenue par la 
formule suivante : 

F(s)=E[t 1 s]= |;R(s)[^ijH-2Y(2^V\s 



'jr. 



avec 



Pi(s)= 



s ss 
I I 

y=i J J 



avec 



2.= 



„ssst 
S S 

Z I 

ts tt 

• ft 

I I 



et ftv=- 



La determination precise de cette fonction est obtenue par la maximi- 
sation de la vraisemblance entre les parametres de ia source et de la cible, obte- 
nue par un aigorithme de type EM. 

En variante, Testimateur peut §tre forme d'un crit^re de maximum a 

posteriori. 

La fonction ainsi definie permet done de modifier I'enveloppe spectrale 
d'un signal de parole Issue du locuteur source afin de la faire ressembler d Tenve- 
loppe spectrale du locuteur cible. 
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Prealablement a cette maximisation, les parametres du modele GMM 
representant les caracteristiques spectrales communes de la source et de la cible 
sont initialises, par exemple, a I'alde d'un algorithme de quantification vectorielle. 

Parallelement, le procede d'analyse de Pinvention est mis en oeuvre 
5 lors d'une etape 60 d'analyse des seuls echantillons vocaux du locuteur cible. 

Ainsi que cela a ete decrit a la reference a la figure 1 , 1'etape 60 d'ana- 
lyse selon I'invention pemnet d'obtenir, pour le locuteur cible, une fonction de pre- 
diction de la frequence fondamentale en fonction uniquement d'informations de 
spectres. 

10 Le procede de conversion comporte ensuite une etape 65 d'analyse 

d'un signal de voix a convertir prononce par le locuteur source, lequel signal a 
convertir est different des signaux vocaux utilises lors des etapes 50 et 60. 

Cette etape d'analyse 65 est r^alisee, par exemple, a I'aide d'une de- 
composition selon le modele HNM permettant de delivrer des informations de 

15 spectre sous la forme de coefficients cepstraux, des informations de frequence 
fondamentale ainsi que des informations de phase et de frequence maximaie de 
voisement. 

Cette etape 65 est suivie d'une etape 70 de transformation des carac- 
teristiques spectrales du signal de voix a convertir par Tapplication de la fonction 
20 de transformation determinee a I'etape 50, aux coefficients cepstraux definis lors 
de I'etape 65. 

Cette 6tape 70 permet notamment la modification de I'enveloppe spec- 
trale du signal de voix a convertir. 

A Tissue de I'etape 70, chaque trame d'echantillons du signal a conver- 
25 tir du locuteur source est ainsi associee a des informations spectrales transfor- 
mees dont les caracteristiques sont similaires aux caracteristiques spectrales des 
echantillons du locuteur cible. 

Le procede de conversion comporte ensuite une etape 80 de predic- 
tion de la frequence fondamentale pour les echantillons vocaux du locuteur 
30 source, par Tapplication de la fonction de prediction determinee selon le procede 
de ^invention lors de I'etape 60, aux seules informations spectrales transformees 
associees au signal de voix a convertir du locuteur source. 

En effet, les echantillons vocaux du locuteur source etant associes a 
des informations spectrales transform6es dont les caracteristiques sont similaires 
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S celles du locuteur cible, la fonction de prediction definie lors de I'etape 60 per- 
met d'obtenir une prediction pertinente de la frequence fondamentale. 

De maniere classique, le precede de conversion comporte ensuite une 
^tape 90 de synthase du signal de sortie realisee, dans I'exemple decrit, par une 
5 synthese de type HNIVl qui delivre directement le signal de voix convert! a partir 
des informations d'enveloppe spectrale transformees delivr^es par I'etape 70, 
des informations de frequence fondamentale predites Issues de I'etape 80 et des 
informations de phase et de frequence maximale de voisement delivrees par 
I'etape 65. 

10 Le precede de conversion mettant en oeuvre le proced6 d'analyse de 

invention, permet ainsi d'obtenir une conversion de voix realisant des modifica- 
tions de spectres ainsi qu'une prediction de frequence fondamentale, de maniere 
^ obtenir un rendu auditif de bonne qualite. 

Notamment, refficacit§ d'un tel precede peut etre evaluee d partir 

15 d'6chantillons vocaux identiques prononc6s par le locuteur source et le locuteur 
cible. 

Le signal vocal prononce par le locuteur source est converti a I'aide du 
precede tel que decrit et la ressemblance du signal converti avec le signaLpro- 
nonc^ par le locuteur cible, est evaluee. \ 
20 Par exemple, cette ressemblance est calculee sous la forme d'un:catio 

entre la distance acoustique separant le signal converti du signal cibie et la dis- 
tance acoustique separant le signal cible du signal source. / 

En calculant la distance acoustique a partir des coefficients cepstraux 
ou du spectre d'amplitude des signaux obtenu a I'aide de ces coefficients ceps- 
25 traux, le ratio obtenu pour un signal converti a Taide du precede de Tinvention est 
de Tordre de 0,3 a 0,5. 

Sur la figure 3, on a represents un schema bloc fonctionnel d'un sys- 
t§me de conversion des voix mettant en oeuvre le procede decrit en reference ^ 
la figure 2. 

30 Ce syst§me utilise en entrSe une base de donnees 100 d'echantiilons 

vocaux prononc6s par le locuteur source et une base de donnees 102 contenant 
au moins les memes echantillons vocaux prononces par le locuteur cible. 
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Ces deux bases de donnees sont utilisees par un module 104 de de- 
termination d'une foncUon de transformation de caracteristiques spectrales du 
locuteur source en caracteristiques spectrales du iocuteur cible. 

Ce module 104 est adapte pour la mise en oeuvre de I'etape 50 du 
precede tel que decrit en reference S la figure 2 et permet done la determination 
d'une fonction de transformation de I'enveloppe spectrale. 

Par ailleurs, ie systeme comporte un module 106 de determination 
d'une fonction de prediction de la frequence fondamentale en fonction unique- 
ment d'informations relatives au spectre. Le module 106 regoit pour cela en en- 
tree les echantillons vocaux du seul locuteur cible, contenus dans la base de 
donnees 102. 

Le module 106 est adapte pour la mise en oeuvre de retape 60 du 
procede decrit en reference a la figure 2 et correspondant au precede d'analyse 
de {'invention tel que decrit en reference a la figure 1 . 

Avantageusement, la fonction de transformation delivree par le module 
104 et la fonction de prediction deiivree par le module 106. sont memorisees en 
vue d'une utilisation ulterieure, 

Le systeme de conversion de voix regoit en entree un signal de voix 
110 correspondant ^ un signal de parole prononce par le locuteur source et des- 
tine ^ etre convert!. 

Le signal 110 est introduit dans un module 112 d'analyse du signal, 
mettant en oeuvre, par exemple, une decomposition de type HNM et permettant 
de dissocier des informations de spectre du signal 110 sous la forme de coeffi- 
cients cepstraux et d'informations de frequence fondamentale. Le module 112 
deiivre egalement des infomnations de phase et de frequence maximale de voi- 
sement obtenues par I'applicatlon du modele HNM. 

Le module 112 met done en ceuvre i'etape 65 du precede decrit pre- 
cedemment. 

Eventuellement cette analyse peut etre faite au prealable et les infor- 
mations sont stockees pour etre utilisees ulterieurement. 

Les coefficients cepstraux deiivres par le module 112. sont ensuite in- 
troduits dans un module 114 de transformation adapte pour appllquer la fonction 
de transformation determinee par le module 104. 
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Ainsi, le module 114 de transformation met en ceuvre Tetape 70 du 
precede decrit en reference a la figure 2 et delivre des coefficients cepstraux 
transformes dont les caracteristiques sont similaires aux caracteristiques spectra- 
les du locuteur cible. 

5 Le module 114 realise ainsi une modification de Tenveloppe spectrale 

du signal de voix 110. 

Les coefficients cepstraux transformes delivres par le module 114, 
sont ensuite introduits dans un module 116 de prediction de la frequence fonda- 
mentale adaptes pour mettre en oeuvre la fonction de. prediction determin^e par 
10 le module 106. 

Ainsi, le module 1 16 met en oeuvre Tetape 80 du precede decrit en re- 
ference a la figure 2 et delivre en sortie des informations de firequence fondamen- 
tale pr6dites a partir uniquement des informations de spectre transformees. 

Le systeme comporte ensuite un module 118 de synthase recevant en 
15 entree les coefficients cepstraux transformes issus du module 114 et corres- 
pondant a Tenveloppe spectrale, les informations de frequence fondamentale 
predites issues du module 116, et les informations de phase et de frequence, 
maximale de voisement delivrees par le module 112. 

Le module 118 met ainsi en oeuvre Tetape 90 du precede decrit en re- 
20 ference a la figure 2 et delivre un signal 120 correspondant au signal de voix 110 
du locuteur source, mais dont les caracteristiques de spectre et de frequence 
fondamentale ont ete modifiees afin d'etre similaires a celles du locuteur cible.. 

Le systeme decrit peut etre mis en oeuvre de diverses manieres et no- 
tamment ^ I'aide d'un programme informatique adapte et relie a des moyens ma- 
25 teriels d'acquisition sonore. 

Bien entendu, d'autres modes de realisation que celui decrit peuvent 
etre envisages. 

Notamment, les modeles HNM et GMM peuvent etre remplaces par 
d'autres techniques et modeles connus de I'homme de Tart, tels que par exemple 
30 les techniques dites LSF (Line Spectral Frequencies), LPC (Linear Predictif Co- 
ding) ou encore des parametres relatifs aux formants. 
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REVEMDICATIOMS 

1. Procede d'analyse d'informatlons de frequence fondamentale 
contenues dans des echantillons vocaux, caracterise en ce qu'il connporte au 
moins : 

5 - une etape (2) d'analyse des echantillons vocaux regroup§s en tra- 

mes pour obtenir, pour chaque trame d"6chantillons, des informations relatives au 
spectre et des informations relatives S la frequence fondamentale; 

- une 6tape (20) de detemiination d'un modele representant les carac- 
teristiques communes de spectre et de frequence fondamentale de tous les 

1 0 echantillons; et 

- une etape (30) de determination, a partir de ce modele et des Echan- 
tillons vocaux, d'une fonctlon de prediction de la frequence fondamentale en 
fonction uniquement d'informations relatives au spectre. 

2. Procede selon la revendication 1 , caracterise en ce que ladite etape 
15 (2) d'analyse est adaptee pour delivrer lesdites informations relatives au spectre 

sous la forme de coefficients cepstraux. 

3. Procede selon Tune quelconque des revendications 1 ou 2, caracte- 
rise en ce que ladite 6tape d'analyse (2) comporte : 

- une sous-etape (4) de modelisation des echantillons vocaux selon 
20 une somme d'un signal harmonique et d'un signal de bruit ; 

- une sous-6tape (5) d'estimation de parametres de frequence et au 
moins de la frequence fondamentale des Echantillons vocaux; 

- une sous-etape (6) d'analyse synchronisee de chaque trame 
d'echantillons sur sa frequence fondamentale; et 

25 - une sous-etape (7) d'estimation des parametres de spectre de cha- 

que trame d'echantillons. 

4. Procede selon Tune quelconque des revendications 1 a 3, caracteri- 
se en ce qu'il comporte en outre une etape (10) de normalisation de la frequence 
fondamentale de chaque trame d'echantillons par rapport a la moyenne des fre- 

30 quences fondamentales des echantillons analyses. 

5. Procede selon Tune quelconque des revendications 1 a 4. caracteri- 
se en ce que ladite etape (20) de detennination d'un modele correspond a la de- 
termination d'un modele par melange de densites gaussiennes. 
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6. Procecl6 selon la revendicatlon 5, caracterise en ce que fadite etape 
de determination (20) d'un moddle comprend : 

- une sous-etape (22) de determination d'un module correspondant a 
un melange de densites gaussiennes; et 

- une sous-etape (24) d'estlmation des paramMres du melange de 
densit6s gaussiennes a partir de I'estimatlon du maximum de vralsemblance en- 
tre lea informations de spectre et de frequence fondamentale des echantillons et 
du modele. 

7. Proc6de selon I'une quelconque des revendications 1^6, caracteri- 
se en ce que ladite etape (30) de determination d'une fonction de prediction est 
realisee k partir d'un estimateur de la realisation de la frequence fondamentale 
sachant les Informations de spectre des echantillons. 

8. Precede selon la revendication 7, caracterise en ce que ladite etape 
(30) de determination de la fonction de prediction de la frequence fondamentale 
comprend une sous-etape (32) de determination de I'esperance conditionnelle de 
la realisation de la frequence fondamentale sachant les Informations de spectre a 
partir de la probabilite a posteriori que les informations de spectre soient obte- 
nues ^ partir du modeie, I'esperance conditionnelle formant ledit estimateur. 

9. Precede de conversion d'un signal vocal prononce par un locuteur 
source en un signal vocal converti dont les caracteristiques ressembleijt a celles 
d'un locuteur cible, comportant au moins : 

- une etape (50) de determination d'une fonction de transformation de 
caracteristiques spectrales du locuteur source en caracteristiques spectrales du 
locuteur cible, realls6e a partir d'echantillons vocaux du locuteur source et du 
locuteur cible; et 

- une etape (70) de transformation des informations de spectre du si- 
gnal de voix du locuteur source d convertir ^ I'alde de ladite fonction de transfor- 
mation, 

caracterise en ce qu'il comporte en outre : 

- une etape (60) de determination d'une fonction de prediction de la 
frequence fondamentale en fonction uniquement d'infomiations relatives au spec- 
tre pour le locuteur cible. ladite fonction de prediction etant obtenue S I'alde d'un 
procede d'analyse selon i'une quelconque des revendications 1 ^ 8; et 
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- une etape (80) de prediction de la frequence fondamentale du signal 
de voix a convertir par rappiication de ladite fonction de prediction de la fre- 
quence fondamentale auxdites informations de spectres transform6s du signal de 
voix du locuteur source. 

10. Proced6 selon la revendlcation 9, caracterls6 en ce que ladite 
etape (50) de determination d'une fonction de transformation est r§alisee a partir 
d'un estimateur de.la realisation des caracteristiques spectrales cibles sachant 
les caracteristiques spectrales source. 

11. Precede selon la revendicatlon 10, caracteris6 en ce que ladite 
6tape (50) de determination d'une fonction de transformation comporte : 

- une sous-etape (52) de modelisation des echantillons vocaux source 
et cible selon un modele de somme d'un signal harmonique et d'un signal de 
bruit ; 

- une sous-6tape (54) d'alignement entre les echantillons source et ci- 
ble; et 

- une 80us-6tape (56) de determination de ladite fonction de transfor- 
mation a partir du calcul de I'esperance condltionnelle de la realisation des carac- 
teristiques spectrales cibles sachant la realisation des caracterlsations spectrales 
sources, I'esperance conditionnelle formant ledit estimateur. 

12. Precede selon I'une quelconque des revendlcations 9 a 11, carac- 
terise en ce que ladite fonction de transformation est une fonction de transforma- 
tion de I'enveloppe spectrale. 

13. Precede selon I'une quelconque des revendicatlons 9 a 12. carac- 
terise en ce qu'il comporte en outre une etape (65) d'analyse du signal de voix a 
convertir adaptee pour delivrer lesdites Informations relatives au spectre et a la 
frequence fondamentale. 

14. Precede selon I'une quelconque des revendlcations 9 a 13, carac- 
terise en ce qu'll comporte en outre une etape (90) de synthese permettant de 
former un signal de voix converti au molns a partir des Informations de spectre 
transformees et des informations de frequence fondamentale predites. 

15. Systeme de conversion d'un signal vocal (110) prononce par un 
locuteur source en un signal vocal (120) converti dent les caracteristiques res- 
semblent a celles d'un locuteur clble, systeme comportant au molns : 
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- des moyens (104) de determination d'une fonction de transformation 
de caract6ristiques spectrales du locuteur source en caracteristiques spectrales 
du locuteur cible, recevant en entree des echantillons vocaux du locuteur source 
(100) et du locuteur cible (102) ; et 

5 - des moyens (114) de transformation des informations de spectre du 

signal de voix (110) du locuteur source a convertir par rapplication de ladite fonc- 
tion de transformation delivree par les moyens (104), 
caracteris6 en ce qu'il comporte en outre : 

- des moyens (106) de determination d'une fonction de prediction de la 
1 0 frequence fondamentale en fonction uniquement dMnformations relatives au spec- 

tre pour le locuteur cible, adaptes pour la mise en oeuvre d'un proc^de d'analyse 
selon Tune quelconque des revendications 1 a 8, a partir d'echantiiions vocaux 
(102) du locuteur cible ; et 

- des moyens (1 16) de prediction de la frequence fondameritale dudit 
15 signal de voix a convertir (110), par rapplication de ladite fonction de prediction 

determinee par lesdits moyens (1 06) de determination d*une fonction de predic- 
tion auxdites informations de spectre transform^ delivrees par lesdits moyens de 
transformation (1 14). 

16. Systeme selon la revendicatlon 15, caracterise en ce qu'il com- 

\'» 

20 porte en outre : . . 

* * ■ 

- des moyens (112) d'analyse du signal de voix a convertir (110), 
adaptes pour d§livrer en sortie des Informations relatives au spectre et S la fre- 
quence fondamentale du signal de voix a convertir ; et 

- des moyens (118) de synthese permettant de former un signal de 
25 voix converti a partir au moins des informations de spectre transforme delivrees 

par les moyens (1 14) et des informations de frequence fondamentale predites 
delivrees par les moyens (116). 

17. Systeme selon Tune quelconque des revendications 15 et 16, ca- 
racterise en ce que lesdits moyens (104) de determination d'une fonction de 

30 transformation sont adaptes pour delivrer une fonction de transformation de Ten- 
veloppe spectrale. 

18. Systeme selon Tune quelconque des revendications 15 a 17, ca- 
racterise en ce qu'il est adapte pour la mise en ceuvre d'un proced§ de conver- 
sion de voix selon Tune quelconque des revendications 9 a 12. 
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